人工智能将如何颠覆现有的文字工作?
The following article is from ALLinBLOOM Author 创赢未来
人工智能逐渐改变了很多职位的工作方式,
文字作为信息传递的主要载体,
那些和文字阅读、处理、分发、生产相关的工作,
将如何被人工智能重塑?
本文为达观数据创始人陈运文
在东方财经浦东频道《创赢未来》中的演讲,
一起来看文本智能处理的现在和未来。
陈运文
达观数据CEO
我在复旦大学计算机系读完博士以后,在百度、盛大、腾讯分别从事过文本挖掘的技术管理工作。我们团队也是由心怀着文字自动化处理梦想的小伙伴们构成的。
人类文明从诞生文字的那一刻起开始算,已经有五千年的历史。人类文明史上最早的四种文字分别是两河流域的楔形文字、埃及的圣书文、玛雅文和中国的甲骨文。约在公元前2600年,这四种文字在全球的四个不同的地区,独立产生出来。
人类最早诞生的一块文字叫“库辛石板”,它是在公元前2600年时,在幼发拉底河和底格里斯河两河流域发现的最早的楔形文字泥板,它也是人类考古学里发现的最早的文字痕迹。里面记录了一个叫库辛的人在37个月的时间里,总共收到了2万9千多个大麦。也就是说,人类文明史上最早的文字既不是歌颂王侯将相的诗歌,也不是描述劳动人民狩猎的场景,更不是诗歌或者是祭文,而是一个财务报告。这是因为人脑对文字和数字的记忆是非常弱的,时间久了会记不住具体的数字和文字细节。因此,人类发明了数字和文字,来帮助我们能够来记忆这些重要的信息。
达观的计算机系统也同样是辅助我们来完成很多文字分析、记录、处理的工作,它可以让我们更加轻松地工作和生活。
文字处理的应用面非常广,简单来说可以分成两大部分。第一部分是代替人来完成文字的阅读工作,第二部分是代替人来完成文字的写作工作。
读和写是我们每个人每天都在做的工作,它耗费了我们大量的时间。我们做了一个统计,不管你是公务员、财务人员、法务人员,还是传媒公司的校对人员,其实每天都有大量的工作是审核材料。审核材料就需要阅读这些材料并基于你对这个领域的理解去判断材料有没有问题。一个普通的白领每天有超过三分之一的时间是用在文字的读和写上的。
我们的计算机软件自动化系统,可以让这些文字工作由繁化简。它能从头到尾完成一个文档的阅读工作,从里面自动化抽取出关键要素,并且根据相应的法规、合规和审查内容,判断出文字是否能够通过相应的合规检查。我们的系统已经在很多政府机构、大型央企、五百强企业、四大会计师事务所里面应用,大幅度地减轻了人工的负担。
除了文字审核以外,大量文档资料的比对、搜索、知识提取和知识网络的构建也是非常重要的事情。我们做文字阅读时,平均一秒钟一个人的阅读速度大概是20-30字,相当于一条微信的长度,效率是非常低的。但是计算机一秒钟可以阅读一万字,它的速度是人的几百倍,更何况我们提供的是几千台服务器的一整套集群,它的阅读速度是非常惊人的,可以大幅度地缩短文字阅读处理的时间。原来可能一个团队三五个人用一周才能完成的工作,现在用我们的计算机系统只要十几分钟就可以完成,效率大幅提高。
在互联网的文字信息处理方面,我们也有个性化推荐的系统。很多互联网的客户,他们有大量的文档资料,比如对商品的用户意见分析、商品信息搜索、信息推荐等,这些都可以用我们的计算机系统代替人来完成。同时,很多中国的大型企业、五百强客户、四大会计师事务所等,他们的员工每天都要阅读大量的合同、财务报表,去分析各种各样的上市公司的公告,这些工作非常费时费力。一但用了我们的计算机软件来做这些工作,不但效率提高了,而且出错的概率更小。
达观也获得了很多机构的认可,获得了吴文俊人工智能奖,这个是中国在人工智能学界的最高奖项,我们也是2018年唯一获得吴文俊人工智能奖的上海创业企业。我们还获得了来自中央军委装备部的军事情报自动化处理比赛的季军,获得了来自最高人民法院的司法裁判文书的刑期预测竞赛季军。我们让计算机能够像法官一样去阅读案情描述和相关材料,根据相应的法律法规给出判罚意见的分析。在常见刑事案件的判罚方面,我们的准确率已经非常接近真实人类法官的判罚结果了。我们也获得了很多丰厚的学术成果,发表了很多技术论文、专利,出版了两本著作。
中国有句古话,叫“读书破万卷,下笔如有神”。我们让软件系统阅读人类所积累下来的文档资料,去分析里面字词的语言模型和语法规律,从而让计算机能够具备不亚于人类的文字阅读理解能力。截至目前,我们已经积累了超过两百亿字的文档资料。
也期待在不久的将来,计算机能够成为我们每个企业、每一个人身边非常好的助手。我们预测到2035年的时候,有超过一半的文字日常处理工作,都可以让计算机代替人类来完成,期待这天能够早日到来。
uestion
问题
黄丽媛(元昆创投上海分公司 总经理)
语义语句的标准是怎么来设定的?对于一些有风险的词句,它怎么去规避这些风险呢?
陈运文:文字语义理解的标准其实一直都存在,只不过这个标准很多时候是记录在我们人脑或者我们专业人士的日常工作中的。比如说,我们审计师去大型企业里做审计,他审计的标准和审批这些内容的尺度,他自己是有掌握的。我们的系统其实是需要让计算机做大量的学习和训练,从而掌握人脑中的这些语义规则,模仿人来完成类似的工作。所以,我们需要让计算机去学习人的工作,让人去纠正计算机的结果,通过反复的训练,让计算机的能力逐步达到人的水平,这时候它就可以开始上岗工作。
uestion
问题
梁伦友(海通资本 执行董事)
像百度、腾讯、阿里等巨头也在做语义分析工作,您作为一家创业公司,在这个领域怎样去和他们竞争?
陈运文:语义理解是一个非常复杂的领域,一般分为两种,一种叫通用型的语言模型,另一种叫行业专用的语言模型。这些巨头们做的更多的是通用型的语言模型,而我们在每一个细分领域的专用语言模型的构建上面,其实投入了更多的精力。我们可以针对客户的行业场景,给他们定制他们所需要的语言分析的模型,更好地解决他们的痛点和问题。比如,我们代替证券公司的保监员来做相关的分析挖掘,用这个领域的专业知识和专业文档资料,去构建一个专属于这个领域的语言模型,代替该行业的员工去完成日常的工作。所以,这是我们这样的创业企业,能够在过去的三年多时间里迅速发展壮大的一个很重要的原因。
点击阅读原文,申请试用达观数据产品